Phong cách DeepSeek 'tương đồng đáng kinh ngạc' với ChatGPT
Nghiên cứu mới cho thấy phong cách văn bản AI của DeepSeek giống khoảng 74,2% với ChatGPT của OpenAI. Kết quả này, được công bố trên arXiv.org, do Copyleaks thực hiện và chỉ ra rằng DeepSeek có thể đã được đào tạo dựa trên đầu ra của ChatGPT.
Forbes cho rằng nghiên cứu này quan trọng đối với quyền sở hữu trí tuệ, quy định về AI và sự phát triển của trí tuệ nhân tạo. Copyleaks áp dụng công nghệ sàng lọc và thuật toán để phát hiện phong cách văn bản của nhiều mô hình ngôn ngữ như OpenAI, Claude, Google Gemini, Meta Llama và DeepSeek.
Kết quả cho thấy văn bản do hầu hết các mô hình tạo ra dễ dàng bị phân biệt, trong khi nhiều đầu ra của DeepSeek lại bị phân loại là do OpenAI. Theo Shai Nisan, Giám đốc khoa học dữ liệu tại Copyleaks, phương pháp của họ giống như việc chuyên gia xác định tác giả một bản thảo bằng cách so sánh chữ viết tay với mẫu từ nhiều tác giả khác.
Nisan cho biết kết quả nghiên cứu thật đáng ngạc nhiên và có nhiều ý nghĩa. Ông nhận thấy có sự tương đồng lớn về phong cách giữa DeepSeek và OpenAI, điều mà không thấy ở các mô hình khác. Kết quả này đặt ra câu hỏi quan trọng về cách DeepSeek được đào tạo và liệu có sử dụng kết quả từ OpenAI hay không. Mặc dù chưa thể khẳng định DeepSeek là sản phẩm phái sinh, nhưng điều này gợi ý về quy trình phát triển của nó.
Với vị thế dẫn đầu của các mô hình OpenAI, nghiên cứu của chúng tôi cho thấy cần điều tra thêm về kiến trúc, dữ liệu đào tạo và quy trình phát triển của DeepSeek. Các nhà nghiên cứu của Copyleaks cũng cảnh báo rằng nếu DeepSeek sử dụng dữ liệu đào tạo từ văn bản do OpenAI tạo mà không được phép, sẽ có tác động lớn đến quyền sở hữu trí tuệ. Sự thiếu minh bạch trong dữ liệu đào tạo AI sẽ ảnh hưởng sâu sắc đến lĩnh vực này trong tương lai.
Các cơ quan quản lý có thể yêu cầu các công ty AI công khai thông tin về tập dữ liệu và đầu ra mô hình mà họ sử dụng. Các mô hình AI có thể trở nên tương đồng theo phong cách nếu được đào tạo trên các tập dữ liệu giống nhau. Tuy nhiên, phương pháp tổng hợp của Copyleaks được thiết kế để phát hiện sự khác biệt tinh tế giữa các mô hình.
Sự tương đồng giữa DeepSeek và OpenAI không chỉ ở dữ liệu mà còn có thể liên quan đến cấu trúc hoặc đào tạo. DeepSeek và OpenAI chưa bình luận gì về vấn đề này. Cuối năm ngoái, mô hình V3 của DeepSeek từng tự nhận là ChatGPT trong các truy vấn. Trong thử nghiệm của TechCrunch và một số người dùng trên mạng xã hội, DeepSeek V3 khẳng định mình là phiên bản GPT-4 do OpenAI phát hành năm 2023.
DeepSeek dường như đã áp dụng kỹ thuật chưng cất kiến thức từ các mô hình trước. Ngày 29 tháng 1, OpenAI đã phát hiện dấu hiệu chưng cất từ DeepSeek. Kỹ thuật này giúp các nhà phát triển cải thiện hiệu suất của mô hình nhỏ bằng cách sử dụng đầu ra từ các mô hình lớn, cho phép đạt kết quả tương tự trong các nhiệm vụ cụ thể với chi phí thấp.
DeepSeek, một công ty Trung Quốc, có thể đã vi phạm điều khoản dịch vụ của OpenAI, nhưng không đưa ra phản hồi nào. Họ lần đầu công bố tỷ suất lợi nhuận của mô hình AI và đạt hơn 22 triệu người dùng hàng ngày.
Nguồn:vnexpress.net/phong-cach-deepseek-tuong-dong-dang-kinh-ngac-voi-chatgpt-4856444.html